#conjunto de datos

ODTQA-FoRe: dataset para preguntas tabulares y pronóstico

ODTQA-FoRe: dataset para preguntas tabulares y pronóstico

Descubre ODTQA-FoRe, el primer dataset para preguntas tabulares con predicción futura. TimeFore combina LLM y modelos de series temporales para pronósticos precisos en datos inmobiliarios.

2026-06-02 · 2 min

CoCoVideo: Benchmark de alta calidad para detectar videos generados por IA

CoCoVideo: Benchmark de alta calidad para detectar videos generados por IA

Descubre CoCoVideo-26K, un benchmark contrastivo con videos reales y generados por IA comerciales. Ideal para detectar deepfakes de alta calidad.

2026-06-02 · 2 min

Agente web automejorado mediante exploración cognitiva

Agente web automejorado mediante exploración cognitiva

SCALE permite a agentes web automejorar mediante exploración cognitiva, superando limitaciones en entornos dinámicos. Mejora el rendimiento de MLLMs.

2026-06-01 · 1 min

AMNESIA: El nuevo benchmark para olvidar datos médicos en IA

AMNESIA: El nuevo benchmark para olvidar datos médicos en IA

Descubre AMNESIA, el primer benchmark masivo para evaluar desaprendizaje en LLMs médicos. ¿Cómo olvidar pacientes sin perder conocimiento clínico? Entra.

2026-06-01 · 2 min

OmniMatBench: Un punto de referencia de razonamiento multimodal calibrado por humanos en 19 subcampos de la ciencia de materiales

OmniMatBench: Un punto de referencia de razonamiento multimodal calibrado por humanos en 19 subcampos de la ciencia de materiales

<meta name=description content=Descubre OmniMatBench, un benchmark multimodal calibrado por humanos que evalúa IA en 19 subcampos de ciencia de materiales. Ideal para investigadores y desarrolladores.>

2026-05-30 · 1 min

Repensando el FID a través de la geometría del conjunto de datos de referencia

Repensando el FID a través de la geometría del conjunto de datos de referencia

Repensando el FID con la geometría del dataset de referencia: cómo mejorar la evaluación de imágenes generadas por IA

2026-05-29 · 2 min

Evaluación del marcado de agua de conjuntos de datos para la trazabilidad del ajuste fino de modelos de difusión personalizados: un punto de referencia integral y un enfoque de eliminación

Evaluación del marcado de agua de conjuntos de datos para la trazabilidad del ajuste fino de modelos de difusión personalizados: un punto de referencia integral y un enfoque de eliminación

Evaluamos un benchmark para eliminar marcas de agua en datasets, clave para la trazabilidad del fine-tuning de modelos de difusión.

2026-05-29 · 2 min

JMed48k: Un punto de referencia multidisciplinario de licencias médicas japonesas para la evaluación de modelos de visión y lenguaje

JMed48k: Un punto de referencia multidisciplinario de licencias médicas japonesas para la evaluación de modelos de visión y lenguaje

<meta name=description content=JMed48k: Benchmark multidisciplinario para evaluar modelos de visión y lenguaje en medicina japonesa>

2026-05-29 · 2 min

Mejora de la clasificación de requisitos con preprocesamiento SMOTE-Tomek

Mejora de la clasificación de requisitos con preprocesamiento SMOTE-Tomek

Mejora la clasificación de requisitos con SMOTE-Tomek. Equilibra datos desbalanceados y optimiza la precisión en el análisis de requisitos.

2026-05-28 · 1 min